import jieba  # 导入结巴分词库
from wordcloud import WordCloud  # 导入词云生成库
import matplotlib.pyplot as plt  # 导入绘图库

# 自定义停用词
stopwords = {"的", "地", "得", "在", "啊", "了", "春节"}  # 定义停用词集合
chinese_text = """
历史呈现与爱国立意：影片将故事设定在1900年的美国旧金山唐人街，巧妙融入爱国元素，通过展现华人在美受压迫的血泪史，如华工建铁路却被抹去名字、《排华法案》的迫害等，引发观众对历史的关注与思考，增强民族情感。
演员阵容豪华，剧情简单但设计亮点多，适合春节期间的合家欢观影。 
作为系列 “前传”，将故事背景移至 1900 年旧金山，主角变为秦风、唐仁 “先祖”，人设调整，让老搭档碰撞新火花；减少低俗烂梗与角色扮丑，喜剧设计（如配合魔术的群像戏）有创意，观感提升 。
春节档的电影市场向来是一片热闹非凡的战场，今年也不例外。《唐探 1990》作为备受瞩目的重磅影片，在票房上的表现十分亮眼。大年初一上映首日，它就凭借强大的 IP 影响力和前期宣传，斩获了高达 4.65 亿元的票房 ，与《哪吒之魔童闹海》一同领跑春节档票房榜，让人们看到了唐探系列的吸金能力。截至目前，其总票房也在不断攀升，成为了春节档票房大战中的有力竞争者。
"""  # 需要分词和生成词云的中文文本
# 中文分词处理并过滤停用词
seg_list = [word for word in jieba.cut(chinese_text) if word not in stopwords and len(word) > 1]  # 分词并去除停用词和单字
seg_text = " ".join(seg_list)  # 将分词结果用空格连接成字符串
# 创建词云对象
wc = WordCloud(
    font_path="simhei.ttf",  # 设置中文字体路径，防止中文乱码
    background_color="white",  # 设置词云背景色为白色
    max_words=200,  # 最多显示200个词
    width=800,  # 词云图片宽度
    height=600,  # 词云图片高度
    collocations=False  # 关闭词组搭配，避免重复词组
)  # 创建词云对象
# 生成词云
wc.generate(seg_text)  # 根据分词结果生成词云
# 显示词云
plt.figure(figsize=(10, 8))  # 设置画布大小
plt.imshow(wc, interpolation="bilinear")  # 显示词云图像
plt.axis("off")  # 关闭坐标轴显示
# 保存词云图片
wc.to_file("d:/dev2/tangtan1900.png")  # 将词云图片保存到指定路径

#sentence = '小明站起来说:“我先吃了苹然后吃了香蕉”'

#使用jieba进行精确模块分词
#words = jieba.cut(sentence,cut_all=False)
#输出结果
#print("|".join(words))